بهبود یادگیری تقویتی در محیط های نیمه روئیت پذیربا استفاده از شکل دهی پاداش ها
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی
- نویسنده فاطمه سارانی راد
- استاد راهنما میرمحسن پدرام عزیزالله معماریانی
- سال انتشار 1392
چکیده
تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهدات، انتقالات و محیط باشد)، محیط مورد بررسی یک محیط نیمه رویت پذیر می شود و مساله تبدیل به فرآیند مارکوف نیمه رویت پذیر (pomdp) می شود که تصمیم گیری در این محیط بغرنج تر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسباتی بالایی برخوردار خواهد بود. از اینرو بهبود روش های حل این مسائل باعث بهبود تصمیم گیری در محیط هایی با عدم قطعیت می شود، هدف این پایان نامه کاهش مشکلات موجود از طریق بکاربردن روش های شکل دهی است که با استفاده از ویژگیهای ذاتی محیط منجر به تسریع فرآیند یادگیری شوند. در حال حاضر در حل مسائل pomdp یک راه حل قطعی وجود ندارد و روش های موجودبرای حل، تقریبی از راه حل را ارائه می کنند که همراه با سربار محاسباتی بالایی است. هدف این پژوهش این است که با استفاده از شکل دهی پاداش ها سربار محاسباتی کاهش داده شود و از این طریق یادگیری تسریع شود. روش های شکل دهی پاداش پیشنهاد شده مستقل از روش حل pomdp می باشد و از هر یک از روش های حل pomdp می توان برای حل مساله مورد بررسی استفاده کرد که این نشان دهنده جامعیت این روش پیشنهادی است. هم چنین بر خلاف سایر روش های موجود شکل دهی در محیط pomdpکه در آن ها تابع شکل دهی به صورت مساله محور طراحی شده، توابع پیشنهادی در این پایان نامه مستقل از مساله بوده و از ویژگی های ذاتی و ساختاری موجود در محیط pomdp برای شکل دهی استفاده می کنند. از اینرو تابع پیشنهادی قابل پیاده سازی روی مسائل مختلف و بهمراه الگوریتم های مختلف حل مسائل pomdp هستند.
منابع مشابه
بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر با استفاده از شکل دهی کنش ها
هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه ب...
بهبود عملکرد حمله در تیم رباتهای فوتبالیست با استفاده از یادگیری تقویتی
بهدلیل عدم امکان پیشبینی همه وضعیتهای ممکن برای عاملها در یک سیستم چندعاملهی پویا و گسترده، روشهای یادگیری ماشین، ابزار مناسبی برای کنترل رفتار عاملها میباشد. فوتبال شبیهسازی شده رباتها یک مسئله شناختهشده برای ارزیابی الگوریتمهای یادگیری ماشین روی سیستمهای چندعامله است. در این مقاله الگوریتم یادگیری کیو ـ وی (یکی از الگوریتمهای معروف یادگیری تقویتی) جهت بهبود عملکرد حمله در تیم رب...
متن کاملبهبود عملکرد عاملها در جامعه مصنوعی با استفاده از یادگیری تقویتی
چکیده معمولاً در سیستمهای چندعاملی، تعاملات بین عاملها و تعاملات عاملها با محیط، به صورت انتخاب و اجرای عملهایی از بین مجموعهای محدود از اَعمال مشخص توسط عاملها حاصل میشود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعداد رفتارهای قابل اجرا توسط عاملها وابسته است. در این پژوهش سعی شد با توسعه مدل کسب و انتقال تجربه و اضافه کردن قابلیت یادگیری به ...
متن کاملبهبود کارایی روش های دسترسی به محیط در شبکه های رادیو هوشمند با استفاده از الگوریتم یادگیری تقویتی
رادیو هوشمند یا رادیو شناختی، روشی نوین به منظور بهبود بکارگیری یک منبع طبیعی بسیار ارزشمند، با نام طیف فرکانسی است. این روش بر اساس یادگیری محیط، می تواند درکی از محیط اطراف داشته باشد. یکی از مهمترین اهداف رادیو شناختی، قابلیت دسترسی به طیف است. از آنجایی که این مساله نوعی استدلال و یادگیری است، می توان برای هوشمند سازی آن از الگوریتم های یادگیری استفاده کرد. در این پایان نامه، به دنبال دو هد...
15 صفحه اولاستفاده از یادگیری تقویتی در کنترل آرایش منظم عامل ها
این پایان نامه یک روش جدید یادگیری تقویتی برای ایجاد آرایش منظم عامل ها ارائه می دهد. آرایش منظم عامل ها به معنی قرارگرفتن آن ها در یک شکل منظم همچون مربع، مثلث، و هشت ضلعی می باشد. مسئله مذکور یک مسئله چند عامله می باشد که در اینجا از روش های یادگیری برای حل آن استفاده می شود. اکثر کارهای گذشته در مورد آرایش منظم از یادگیری تقویتی یا به صورت تک عامله و یا در محیطی گسسته استفاده شده است، لذا د...
استفاده از یادگیری تقویتی برای تشکیل ائتلاف های پویا در شبکه های حسگر نیمه مشارکتی
امروزه شبکه های حسگر در بسیاری از پروژه های نظامی و امنیتی کاربرد دارند. گرچه هنوز بسیاری از این شبکه ها از کنترل کننده های مرکزی و معماری ترکیب مرکزی استفاده می کنند، علاقه مندی فزاینده ای از دهه ی گذشته برای کاهش نقش عامل مرکزی به دلیل محدودیت های اعمال شده ی آن در میان محققین پدید آمده است. برخی از این محدودیت ها عبارتند از: نیاز به پهنای باند ارتباطی زیاد، ترافیک بالای پیام ها در یک نقطه از...
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023